tg-me.com/ds_interview_lib/136
Last Update:
Как понять, что ваша модель столкнулась с проблемой взрывающихся градиентов?
Градиент — это вектор частных производных функции потерь по весам нейронной сети. В процессе обратного распространения ошибки в градиенте могут накапливаться большие значения. В итоге такие элементы градиента могут переполнить тип данных, в котором они хранятся. Это и называется взрывающимися градиентами (exploding gradients).
Вот признаки:
▪️Высокое значение функции потерь. Отражает неспособность модели обучиться на данных.
▪️Скачки значения функции потерь. Показывают, что модель нестабильна.
▪️Функция потерь во время обучения может принимать значение NaN.
Также на проблему взрывающихся градиентов могут указывать:
▫️Быстрый рост весов модели.
▫️Значения NaN у весов модели во время обучения.
#junior
#middle
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
Share with your friend now:
tg-me.com/ds_interview_lib/136